1. MTEB Leaderboard'a Genel Bakış

1.1 Neden Tek Bir Benchmark Yetmiyor?

Embedding modelleri tarihsel olarak tek bir görev üzerinde (genellikle STS veya retrieval) değerlendirilmiş ve bu sonuçlar modelin genel yetkinliğinin göstergesi gibi sunulmuştur. Ancak MTEB'in orijinal çalışması (Muennighoff et al., 2023), temel bir gerçeğin altını çizer: bir görevde SOTA olan bir modelin başka görevlerde de iyi olacağının hiçbir garantisi yoktur. Örneğin retrieval'da birinci sırada yer alan bir model, clustering'de ortalamanın altında kalabilir.

Bu motivasyonla MTEB, çok görevli (multi-task) bir kıyaslama çerçevesi olarak tasarlanmıştır. Leaderboard, modellerin bu çok boyutlu değerlendirme sonuçlarını tek bir platformda karşılaştırılabilir hale getirir.

1.2 Leaderboard Sürümleri

MTEB leaderboard'u zaman içinde önemli revizyonlardan geçmiştir:

MTEB (eng, v1): İlk sürüm. Ağırlıklı olarak İngilizce veri setleri, 8 görev türü, 56+ veri seti. Akademik alanda referans noktası olmuştur.
MTEB (eng, v2): Görev seçimi ve tanımları güncellenerek overfitting riskini azaltma hedeflenmiştir. Bazı veri setleri değiştirilmiş, yenileri eklenmiştir.
MMTEB (Multilingual, v2): Çok dilli genişleme. 131 görev, 9 görev türü, 1.000'den fazla dil. Çok dilli modellerin adil değerlendirmesi için kritik bir adımdır.

v1'den v2'ye geçişte görev adları, veri seti versiyonları ve hangi görevlerin hangi modellere koşulduğu farklılaşabilir. Bu nedenle farklı sürümlerden gelen skorlar doğrudan karşılaştırılmamalıdır.